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Beschreibung 

Verfahren, Compute rprogramm mit Programmcode-Mitteln und Com- 
puterprogramm-Produkfc zur Analyse eines regulatorischen gene- 
5 tischen Netzwerks einer Zelle 

Die Erfindung betrifft eine Analyse eines regulatorischen ge- 
netischen Netzwerks einer Zelle unter Verwendung eines sta- 
tistischen Verfahrens. 

10 

Aus [1] sind Grundlagen eines regulatorischen genetischen 
Netzwerks einer Zelle bekannt. Unter einem' solchen regulato- 
rischen genetischen Netzwerk seien dabei im Folgenden insbe- 
sondere regulatorische Wechselwirkungen zwischen Genen einer 
15 Zelle verstanden. 

Ein Genom, d.h. die menschliche Erbsubstanz, umfasst schat- 
zungsweise 20-000 bis 40.000 Gene, von denen jeweils eine 
biologisch bestimmte Anzahl - abhangig von einer Spezialisie- 
20 rung einer Zelle - in Form einer DNA oder eines Teils einer 
DNA in einer Zelle vorhanden sind. 

Als ein Gen wird dabei ein nicht notwendigerweise zusammen- 
hangender Abschnitt dieser DNA bezeichnet, der einen geneti- 
25 schen Code fur ein Protein oder auch fur eine Gruppe von Pro- 
teinen (Eiweifistof fe) bzw. fur eine Erzeugung eines Proteins 
oder einer Proteingruppe enthalt. Insgesamt beinhalten die 
Gene einen genetischen Code fur etwa eine Million Proteine. 

30 Ein Wechselspiel bzw. die Wechselwirkungen der Gene unterein- 
ander sowie mit den Proteinen stellt den wichtigsten Teil ei- 
ner Maschinerie (regulatorisches genetisches Netzwerk) dar, 
die einer Entwicklung eines menschlichen Korpers aus einer 
befruchteten Eizelle sowie alien Korperfunktionen zugrunde 

35 liegt . 
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Auch aus [1] ist bekannt, dass sogenannte Gen- 
Express ions raten, welche ein Gen-Expressionsmuster bilden, 
eine Beschreibung bzw. Representation eines regulatorischen 
genetischen Netzwerks bzw. eines aktuellen Zustands des regu- 
5 latorischen genetischen Netzwerks lief em. 

Vereinfacht oder anschaulich ausgedruckt reprasentiert somit 
ein Gen-Expressionsmuster einer Zelle einen Zustand des regu- 
latorischen genetischen Netzwerks dieser Zelle. 

10 

Ferner ist bekannt, dass unter Verwendung von Hochdurchsatz- 
Genexpressions-Messungen (Microarray-Daten) diese Gen- 
Expressionsraten messbar sind. Die Microarray-Daten beschrei- 
ben wiederum Momentaufnahmen des Gen-Expressionsmusters . 

15 

Viele Krankheiten und Fehlf unktionen des Korpers gehen auf 
Storungen des regulatorischen genetischen Netzwerks zuruck, 
welche sich in eine stark veranderten Gen- 

Expressionsverhalten (Gen-Expressionsraten) bzw. einem veran- 
20 derten Gen-Expressmuster einer Zelle widerspiegeln. 

Somit stellt ein Verstandnis des regulierenden genetischen 
Netzwerks einen wichtigen Schritt auf dem Weg zu einer Cha- 
rakterisierung und einem Verstehen von genetischen Mechanis- 
25 men sowie in weiterer Folge zu einer Identif izierung von so- 
genannten dominanten oder Funktionsstorungen auslosenden Ge- 
nen dar f welche den Krankheiten oder Fehlf unktionen zugrunde 
liegen. 

30 Beispielsweise kann in einer Krebsf orschung, bei der die I- 

dentifizierung von Geschwulste und Tumore unterdriickenden Ge- 
nen eine Schllisselrolle spielt f die Kenntnis neuer potenziel- 
ler Onkogene und ihre Wechselwirkung mit anderen Genen ein 
Beitrag zu einer Aufdeckung von Grundprinzipien (von Krebser- 

35 krankungen) sein, welche ein Umwandlung normaler Zellen in 
bosartige Krebs zellen bestimmen. 
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Weitergehend ist ftir eine Entwicklung von verbesserten Medi- 
kamenten und Therapien zur Bekampfung von genetischen Krank- 
heiten daher ebenfalls ein quantitatives Verstandnis des re- 
5 gulatorischen genetischen Netzwerks einer Zelle erforderlich. 

So wirken einige Medikamente als Agonisten bzw. Antagonisten 
spezifischer Zielproteine, d. h. sie verstarken oder schwa- 
chen die Funktion eines Proteins mit entsprechender Ruckwir- 
10 kung auf das regulatorische genetische Netzwerk mit dem Ziel, 
dieses zuriick in einen normalen Funktionsmodus zu bringen. 

Aus [2] ist eine Beschreibung eines regulatorischen geneti- 
schen Netzwerks einer Zelle unter Verwendung eines statisti- 
15 schen Verfahrens, eines kausalen Netzes, bekannt. 

Aus [3] ist ein kausales Netz, ein Bayesianisches (Bayess- 
ches) Netzwerk r bekannt. 

20 Bayessche Netzwerke 

Ein Bayessches Netzwerk B ist ein spezieller Typ der Darstel- 
lung einer gemeinsamen multivariaten Wahrscheinlichkeitsdich- 
tefunktion (WDF) einer Menge von Variablen X durch ein gra- 
25 phisches Modell. 

Es ist durch einen gerichteten azyklischen Graphen (directed 
acyclic graph, DAG) G definiert, in welchem jeder Knoten i = 
1, . .., n einer Zufallsvariablen X± entspricht. 

30 

Die Kanten zwischen den Knoten reprasentieren statistische 
Abhangigkeiten und konnen als Kausalzusaramenhange zwischen 
ihnen interpretiert werden. Der zweite Bestandteil des Bay- 
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ess chen Netzwerkes ist die Menge von bedingten WDFen 
P(Xi|Pa if 9, G) , welche mittels eines Vektors 6 parametriert 
sind. 

5 Diese bedingten WDFen spezif izieren die Art der Abhangigkei- 
ten der einzelnen Variablen i von der Menge ihrer Elternkno- 
ten (Parents) Pa*.. Somit kann die gemeinsame WDF in die Pro- 
duktform 




zerlegt werden. 

Der DAG eines Bayesschen Netzwerkes beschreibt auf eindeutige 
15 Weise die bedingten Abhangigkeits- und Unabhangigkeitsbezie- 
hungen zwischen einer Menge von Variablen, jedoch hat im Ge- 
gensatz dazu eine gegebene statistische Struktur der WDF kei- 
nen eindeutigen DAG zur Folge. 

20 Vielmehr kann gezeigt werden, dass zwei DAG ein und dieselbe 
WDF beschreiben, dann und nur dann, wenn sie dieselbe Menge 
von Kanten und dieselbe Menge von "Colliders" aufweisen, wo- 
bei ein Collider eine Konstellation ist, in welcher wenigs- 
tens zwei gerichtete Kanten zu deraselben Knoten fiihren. 

25 

Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren an- 
zugeben, welches eine Analyse eines regulatorischen geneti- 
schen Netzwerks einer Zelle, beispielsweise reprasentiert 
durch ein Gen-Expressionsmuster der Zelle, ermdglicht. 

30 

Ferner liegt der Erfindung die Aufgabe zugrunde, ein Verfah- 
ren anzugeben, welches eine Identif ikation eines defekten 
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Gens, beispielsweise eines Onko- Oder Tumor-Gens, in dem re- 
gulatorischen genetischen Netzwerk einer Zelle ermoglicht. 

Weiter soil die Erfindung eine Simulation und/oder eine Ana- 
5 lyse einer Wirkweise eines Medikaments auf das regulatorische 
genetische Netzwerk einer Zelle ermoglichen. 

Diese Aufgabe wird durch das Verfahren, durch das Computer- 
programm mit Programmcode-Mitteln und das Computerprogramm- 
10 Produkt zur Analyse eines regulatorischen genetischen Netz- 
werks einer Zelle mit den Merkmalen gemafi dem jeweiligen un- 
abhangigen Patentanspruch gelost. 

Bei dem grundlegenden Verfahren zur Analyse eines regulator!- 
15 schen genetischen Netzwerks einer Zelle wird ein kausales 
Netz verwendet, 

- welches kausale Netz das regulatorische genetische Netz- 
werk der Zelle beschreibt derart, dass Knoten des kausalen 
Netzes Gene des regulatorischen genetischen Netzwerks rep- 
20 rasentieren und Kanten des kausalen Netzes regulatorische 

Wechselwirkungen zwischen den Genen des regulatorischen 
genetischen Netzwerks reprasentieren. 

Bei dem Analyseverfahren wird nun fiir ein ausgewahltes Gen 
25 des regulatorischen genetischen Netzwerks eine Gen- 

Expressionsrate vorgegeben. Unter Verwendung des kausalen 
Netzes wird fur die vorgegebene Gen-Expressionsrate ein re- 
sultierendes Gen-Expressionsmuster fiir das regulatorische ge- 
netische Netzwerk generiert. Das generierte resultierende 
30 Gen-Expressionsmuster wird anschliefiend mit einem vorgegebe- 
nen Gen-Expressionsmuster des regulatorischen genetischen 
Netzwerks verglichen. 

Das Computerprogramm mit Programmcode-Mitteln ist eingerich- 
35 tet, urn alle Schritte gemafi dem erf indungsgemafien Verfahren 
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durchzufuhren, wenn das Programm auf einem Computer ausge- 
fiihrt wird. 



Das Computerprograram-Produkt rait auf einem maschinenlesbaren 
5 Trager gespeicherten Programmcode-Mitteln ist eingerichtet, 
urn alle Schritte gemafi dem erf indungsgemafien Verfahren durch- 
zufiihren, wenn das Programm auf einem Computer ausgefiihrt 
wird. 



10 Die Anordnung sowie das Computerprogramm mit Programmcode- 
Mitteln, eingerichtet urn alle Schritte gemafi dem erfinderi- 
schen Verfahren durchzufuhren, wenn das Programm auf einem 
Computer ausgefiihrt wird, sowie das Computerprograram-Produkt 
mit auf einem maschinenlesbaren Trager gespeicherten Pro- 

15 grammcode-Mitteln, eingerichtet um alle Schritte gemafi dem 

erfinderischen Verfahren durchzufuhren, wenn das Programm auf 
einem Computer ausgefiihrt wird, sind insbesondere geeignet 
zur Durchfiihrung des erf indungs gemafi en Verfahrens Oder einer 
seiner nachfolgend erlauterten Weiterbildungen. 

20 

Eine probabilistische Semantik eines kausalen Netzes, wie ei- 
nes Bayesschen Netzwerkes, ist zur Analyse von Gen- 
Expressionsraten, beispielsweise gegeben in Form von Microar- 
ray-Daten, sehr gut geeignet, da sie an die stochastische Na- 
25 tur sowohl von biologischen Prozesse als auch von mit einem 
Rauschen behafteten Experimente angepasst ist. 

Ferner wird, anschaulich gesehen, ein Effekt eines Expressi- 
onszustandes bestimmter Gene auf ein globales Gen- 
30 Expressionsmuster (inverse Modellierung) geschatzt, indem ein 
resultierendes Gen-Expressionsmuster analysiert wird. 
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Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den 
abhangigen Anspruchen. 

Die im weiteren beschriebenen Weiterbildungen beziehen sich 
5 sowohl auf die Verfahren als auch auf die Anordnung. 

Die Erfindung und die im weiteren beschriebenen Weiterbildun- 
gen konnen sowohl in Software als auch in Hardware, bei- 
spielsweise unter Verwendung einer speziellen elektrischen 
10 Schaltung, realisiert werden. 

Ferner ist eine Realisierung der Erfindung oder einer im wei- 
teren beschriebenen Weiterbildung moglich durch ein computer- 
lesbares Speichermedium, auf welchem das Computerprogramm mit 
15 Programmcode-Mitteln gespeichert ist, welches die Erfindung 
oder Weiterbildung ausfuhrt. 

Auch kann die Erfindung oder jede im weiteren beschriebene 
Weiterbildung durch ein Computerprogrammerzeugnis realisiert 
20 sein, welches ein Speichermedium aufweist, auf welchem das 
Computerprogramm mit Programmcode-Mitteln gespeichert ist, 
welches die Erfindung oder Weiterbildung ausfuhrt. 

Bei einer Weiterbildung wird das ausgewahlte Gen unter Ver- 
25 wendung des kausalen Netzes mittels einer Abhangigkeitsanaly- 
se ausgewahlt. 

Auch kann die Gen-Expressionsrate des ausgewahlten Genes der- 
art vorgegeben werden, dass die vorgegebene Gen-Expressrate 
30 des ausgewahlten Genes eine Annahme eines Gendefekts wider- 
spiegelt . 

Als kausales Netz kann ein Bayesianisches bzw. Bayessches 
Netz verwendet werden. 



WO 2005/003368 PCT/EP2004/051266 



8 

Auch kann das kausale Netz von einem Typ DAG (directed acylic 
graph) sein. 

5 Ferner kann bzw. konnen das generierte resultierende und/oder 
das vorgegebene Gen-Expressionsmuster diskrete Genzustande 
reprasentieren, wobei die reprasentierten diskreten Gen- 
zustande ein tiber-, ein normal-, ein unterexprimierten Gen- 
zustand sein konnen. 

10 

Bei einer Weiterbildung wird der Vergleich des generierten 
resultierenden Gen-Expressionsmuster mit dem vorgegebenen 
Gen-Expressionsmuster unter Verwendung eines statischen Ver- 
fahrens und/oder einer statistischen Kennzahl, insbesondere 
15 eines Abstandsmafies, durchgef iihrt . 

Auch kann vorgesehen werden, dass das kausale Netz unter Ver- 
wendung von Gen-Expressionsmustern trainiert wird, wobei die 
Knoten und die Kanten des kausalen Netzes angepasst werden. 

Ferner ist es zweckmafiig, dass die Gen-Expressionsmuster, 
insbesondere das vorgegebene Gen-Expressionsmuster und/oder 
die Gen-Expressionsmuster fur das Training, bestimmt werden 
unter Verwendung einer DNA-Micro-Array-Technik. 

Bei einer Ausgestaltung ist das vorgegebene Gen- 
Expressionsmuster und/oder die Gen-Expressionsmuster fur das 
Training ein Gen-Expressionsmuster eines genetischen regula- 
torischen Netzwerks einer kranken Zelle. 

Dabei kann beispielsweise die kranke Zelle eine Onko-Zelle 
sein, insbesondere eine Onko-Zelle mit ALL (Akute 
lymphoblastische Leukamie) . 

35 Ferner kann auch die kranke Zelle ein Onko-Gen, insbesondere 
ein ALL-Onko-Gen, aufweisen. 



20 



25 



30 
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Auch kann fur eine Vielzahl von ausgewahlten Genen des regu- 
latorischen genetischen Netzwerks jeweils eine Gen- 
Expressionsrate vorgegeben werden, eine Vielzahl von resul- 
tierenden Gen-Expressionsmustem generiert werden und/oder 
5 eine Vielzahl von Vergleichen durchgefiihrt werden. 

Bei einer Weiterbildung wird die Generierung der Vielzahl von 
resultierenden Gen-Expressionsmustern iterativ durchgefiihrt. 

10 Ferner eignet sich die erf inderische Vorgehensweise oder Wei- 
terbildung davon insbesondere zur Identif izierung eines domi- 
nanten Gens und/oder eines degenerier- 

ten/mutierten/kranken/onkogenen/Tumor-suppressor Gens . 

15 Auch eignet sie sich zur Identif izierung einer Tumorzelle/ 
beispielsweise im Zusammenhang mit einer Krebserkennung. 

Ferner ist die erf inderische Vorgehensweise insbesondere ge- 
eignet zu einer Ursachenanalyse fur ein abnormales Gen- 
20 Expressionsmuster/Gen-Expressrate. 

Auch kann sie eingesetzt werden zu einer Simulation und/oder 
Analyse einer Wirkweise eines Medikaments . 

25 In Figuren ist ein Ausfuhrungsbeispiel der Erfindung darge- 
stellt, welches im weiteren naher erlautert wird. 

Es zeigen 

30 Figur 1 eine Skizze einer Vorgehensweise bei der Untersuchung 
genetisch bedingter Krankheitsursachen durch Bayess- 
che inverse Modellierung am Beispiel einer Krebser- 
krankung; 

35 Figur 2 eine Skizze mit einem Algorithmus zur Erzeugung eines 
Datensatzes von N Stichproben gemafi einem Ausfuh- 
rungsbeispiel; 
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Figur 3 eine Skizze fur eine Vorgehensweise zur Erzeugung von 
Datensatze, welche eine Auswirkung von verschiedenen 
Beobachtungen widerspiegeln gema.fi einem Ausfuhrungs- 
5 beispiel; 

Figuren 4a und b Skizzen die zeigen, dass durch eine 
Stichprobenentnahme gewonnene Daten Untertyp- 
charakteristische Expressionsmuster zeigen wie auch 
10 in einem ursprunglichen Datensatz; 

Figur 5 eine Skizze, die graphisch zeigt eine Wahrscheinlich- 
keit jedes Untertyps unter einer Bedingung, dass ein 
Gen uberexprimiert ist, fur alle 271 Gene; 

15 

Figur 6 eine Skizze einer Graphenstruktur eines kausalen 

Netzwerks, welches ein regulatorisches genetisches 
Netzwerk reprasentiert . 



Ausfuhrungsbeispiel : Untersuchung genetisch bedingter Krank- 
heitsursachen durch Bayessche inverse Modellierung am Bei- 
spiel einer Krebserkrankung (insb. Fig.l) 

25 

Uberblick uber die Vorgehendweise - Bayessche inverse Model- 
lierung (BIM) 

30 Auf vielen Gebieten der empirischen Forschung mochte man aus 
der Beobachtung von Versuchsergebnissen auf das zugrundelie- 
gende Prinzip und dessen Ursprung schlieflen - die Beziehung 
zwischen "Ursache" und "Wirkung" . 
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Zum Beispiel wird in der Krebsf orschung das zugrundeliegende 
Prinzip studiert f welches bewirkt, dass sich eine normale 
Zelle in eine bosartige, schnell wachsende Krebszelle verwan- 
delt. 

5 

Die Auswirkung der verschiedenen Arten des Krebses ist be- 
kannt, z. B. das allgemeine Erscheinungsbild einer Krebszelle 
im Vergleich zu einer normalen Zelle , gemessen mit Hilfe von 
Microarray-Chips . 

10 

Dagegen ist die Ursache ihrer Entstehung groiitenteils unbe- 
kannt . 

Aufgrund der Einsicht, dass Krebs eine genetische Krankheit 
15 ist und dass er auf eine Abweichung des Verhaltens der Zellen 
zuruckzuftihren ist, konzentriert sich die Forschung auf die 
Aufdeckung der genetischen Prinzipien, die fur die Entwick- 
lung des Krebses verantwortlich sind. 

20 Eine wichtige Aufgabe in diesem Umfeld ist es, Gene zu iden- 
tifizieren, welche bei der Tumorgenese eine Rolle spielen 
konnen, wie etwa Geschwulste und Turtiore unterdruckende Gene. 

Nachfolgend wird eine Vorgehensweise beschrieben, mit der es 
25 moglich ist, Gene zu identif izieren, die eine potenzielle Ur- 
sache fur die Tumorgenese sind. 

Ein Element der Vorgehensweise ist ein statistisches Verfah- 
ren, in diesem Fall ein Bayesianisches (Bayessches) Netzwerk 
30 [3] (siehe obige und nachfolgende Ausfiahrungen dazu) , welches 
aus einem Microarray-Datensatz [1] gelernt wird [2] (siehe 
nachfolgend dazu "Strukturelles Lernen") (vgl. Fig .1 ). 
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Dabei wird angenommen , dass die Menge der gemessenen Gen- 

i 

expressionsvektoren X einer Grundgesamtheit mit einer hochdi- 
mensionalen multivariaten Wahrscheinlichkeitsdichtefunktion 
angehort, welche mit Hilfe eines Bayesschen Netzwerkes mit 
5 adaptiver Netzwerkstruktur modelliert wird. 

Die Zusammenhange zwischen den Variablen, namlich die beding- 
ten Abhangigkeiten und Unabhangigkeiten, werden mittels eines 
gerichteten azyklischen Graphen (directed acyclic graph, DAG) 
10 G dargestellt. 

Die probabilistische Semantik eines Bayesschen Netzwerkes ist 
zur Analyse von Microarray-Daten sehr gut geeignet, da sie an 
die stochastische Natur sowohl der biologischen Prozesse als 
15 auch der mit einem Rauschen behafteten Experimente angepasst 
ist. 

Bex der nachfolgend beschriebenen Vorgehensweise wird das ge- 
lernte Bayessche Netzwerk als ein generatives Modell zur 
20 Stichprobenentnahme von kunst lichen Microarray-Datensatzen 

verwenden, welches die Dichteschatzung der gelernten beding- 
ten Wahrscheinlichkeitsverteilungen liefert (vgl. Fig. 1, 
Schritte 110 - 130 ) . 

25 Welter wird der Effekt des Expressionszustandes bestimmter 

Gene auf das globale Expressionsrnuster (inverse Modellierung) 
geschatzt, indem ein resultierende Datensatz analysiert wird 
(vgl . Fig.l Schritte 110 - 130 ) . 



30 



Auch wird bei der nachfolgend beschriebenen Vorgehensweise 
jedem Gen seine Wahrscheinlichkeit zugeordnet, mit der es die 
Ursache eines dieser Zellzustande ist. 
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Dazu werden diese Datensatze mit aus Microarray- 
Untersuchungen von verschiedenen bekannten Zellzustanden er- 
haltenen Daten verglichen (vgl. Fig.l, Schritt 130 ), 

5 Anschaulich gesehen f konzentriert sich die Vorgehensweise 

nicht explizit auf die Struktur des Netzwerkes, sondern viel- 
mehr auf die Wahrscheinlichkeitsverteilung, die durch das ge- 
lernte Bayessche Netzwerk abgeleitet wird. 

10 Schliefllich wird die Vorgehensweise auf Microarray-Daten von 
verschiedenen Untertypen von padiatrischer akuter 
Lymphoblasten-Leukamie (ALL) von Yeoh et al. [4] angewendet. 

Durch den Vergleich der ktinstlichen Daten mit Expressionsmus- 
15 tern von spezifischen Krebs -Untertypen erhalt man ein Wahr- 

scheinlichkeitsmaB des krankheitserzeugenden Verhaltens jedes 
Gens (vgl . Fig.l, Schritt 130 ) . 

Ergebnisse der angewendeten Vorgehensweise zeigen, dass diese 
20 in Verbindung mit der Bayesschen inversen Modellierung (BIM) 
es ermoglicht, die Auswirkung von pathogenetisch veranderten 
Expressionsniveaus auf das globale Expressionsmuster vorher- 
zusagen, wobei bereits bekannte Onkogene ebenso wie poten- 
ziell neue gefunden werden. 

25 

Bayessche Netzwerke 

Im Obigen wurden bereits Grundlagen von Bayesschen Netzen [3] 
beschrieben . 

30 

Im Falle der Modellierung eines regulierenden genetischen 
Netzwerkes durch ein Bayessches Netzwerk werden Gene bzw. ih- 
re entsprechenden Protein^ durch Knoten symbolisiert . 
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Regelungsmechanismen werden durch Kanten zwischen zwei Knoten 
beschrieben, welche auf eine kausale Art und Weise interpre- 
tiert werden konnen. 

Die Qualitat der Regulierung ist in der bedingten Wahrschein- 
lichkeitsverteilung des betroffenen Gens bei gegebenen Regu- 
latoren desselben codiert. 



Strukturelles Lernen 

Der Vorgang des strukturellen Lernens kann wie folgt be- 
schrieben werden: 



Sei D = {d 1 , d 2 , . .., cf} ein Datensatz von N unabhangigen Be- 
obachtungen, wobei jeder Datenpunkt ein n-dimensionaler Vek- 
tor mit Komponenten d 3 " = {d 1 !, d x 2r . d\) ist. Bei gegebe- 
nem D ist die Struktur G des Bayesschen Netzwerkes zu finden, 
20 welche am besten mit D ubereinstimmt , d. h. welche die Bayes- 
Pun ktb ewe r tung (Bayes-Score) 



maximiert, wobei P(D\G) die Randwahrscheinlichkeit, P(G) die 
Apriori-Wahrscheinlichkeit der Struktur und P{D) die Evidenz 
ist. 

Da sowohl die Apriori-Wahrscheinlichkeit als auch die Evidenz 
unbekannt sind, reduziert sich das Problem auf das Ermitteln 
der Struktur mit der besten Randwahrscheinlichkeit entspre- 
chend den Daten (Heckerman et al. [5]). 
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Wenn der Datensatz D aus N Microarray-Experimenten besteht, 
z. B. aus Zellproben von unterschiedlichen Patienten, repra- 
sentiert jeder Datenvektor {d\, d x 2 , d\} das Expressi- 

5 onsprofil von n Genen in einem Microarray-Experiment . 

Ein aus solchen Daten gelerntes Bayessches Netzwerk codiert 
die Wahrscheinlichkeitsverteilung von n Genen, die aus diesen 
N Microarray-Experimenten erhalten wurden. 

10 

Bayessche inverse Modellierung (BIM) 
Generatives Modell 

15 Ein gelerntes (siehe obige Ausfuhrungen zu ^Strukturelles 
Lernen") Bayessches Netzwerk B stellt eine Dichte- 
Schatzfunktion dar, welche die Wahrscheinlichkeitsverteilung 
des Datensatzes D, von dem ausgehend es gelernt wurde, mit 
Hilfe der Menge der bedingten WDFen widerspiegelt. 

20 

Somit kann es als ein generatives Modell zur Erzeugung eines 
Datensatzes D B verwendet werden, welcher die aus D erhaltene 
Dichteverteilung widerspiegelt. 

25 Fig. 2 zeigt einen Algorithmus 200 zur Erzeugung eines Daten- 
satzes von N Stichproben aus 23. 

Der erste Schritt 210 des Algorithmus 200 besteht darin, alle 
Variablen so zu ordnen, dass die Parents (Elternknoten) Pa± 
30 vor Xi instantiiert werden. 



Anschliefiend werden die Variablen entsprechend der Ordnung 
gewahlt und mit einem Wert instantiiert 220. 
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Der Wert jeder Variablen wird mit Wahrscheinlichkeit 

P (Zustand | Pax) gewahlt. Dieser Schritt wird wiederholt 230 , 

bis N Stichproben erzeugt sind. 

5 

Probabilistische Interferenz 

Ein wesentliches Problem in Bayesschen Netzwerken ist die E- 
videnz-Fortpf lanzung, das heiftt, die Ermittlung der Aposteri- 
10 ori-Verteilungen P(X q \E) einer Abf ragevariablen X q , wenn eine 
gewisse Evidenz E im Bayesschen Netzwerk beobachtet worden 
ist. 

Aufgrund der Definition einer bedingten Wahrscheinlichkeit 
15 ist die Aposteriori-Wahrscheinlichkeit 




wobei X E die Menge der beobachteten Variablen bezeichnet. 

25 Um die Zeitkomplexitat zu iiberwinden, verwenden die verschie- 
denen Methoden der exakten Interferenzberechnung das allge- 
meine Prinzip der dynamischen Programmierung. 
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Im Rahmen dieses Ausfuhrungsbeispiel wird ein einfacher In- 
terferenzalgorithmus, der "bucket elimination" [6], verwen- 
det . 
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Die Grundidee bei diesem Interf erenzalgorithmus besteht dar- 
in, Variablen eine nach der anderen entsprechend einer Elimi- 
nations reihenfolge p durch Summieren zu eliminieren. 

5 Auf diese Weise kann P(X<j\E) innerhalb einer annehmbaren Zeit 
effizient berechnet werden. 

Interventionelle Modellierung durch Einstellen der Evidenz 

10 Bei der Herangehensweise der interventionellen Modellierung 

wird die Auswirkung einer bestirnmten Beobachtung auf das Ver- 
halten des Bayesschen Netzwerkes unter Verwendung einer Kom- 
bination von probabilistischer Interferenz und Daten- 
Stichprobenentnahme geschatzt. 

15 

Entsprechend Fig, 3 kann das Bayessche Netzwerk als eine Art 
Black Box 300 angesehen werden, wobei der Eingang durch eine 
Menge von Beobachtungen £ 310 und die entsprechende Liste von 
beobachteten Variablen X E 320 gegeben ist. 

20 

Der Ausgang, der durch den Datensatz D B \ E 330 gegeben ist, 
wird wie im Vorigen zugehorig zu Fig. 2 beschrieben erzeugt. 

Zusatzlich ist die beobachtete Evidenz zu berucksichtigen. 

25 

Folglich wird jeder Zustand von X± mit Wahrscheinlichkeit 
P (Zustand | Pa±,E) gewahlt, welche mittels probabilistischer 
Interferenz berechnet wird. 
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Mit beschriebener Vorgehensweise gemali Fig. 3 konnen nun un- 
terschiedliche Datensatze erzeugt werden, welche die Auswir- 
kung der verschiedenen Beobachtungen widerspiegeln . 
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Wenn wie nachfolgend beschrieben biologische Auswirkungen a- 
nalysiert werden, heiBt das, dass durch diese Vorgehensweise 
gemaB Fig. 3 kunstliche Microarray-Daten erzeugbar sind, wel- 
che die Wahrscheinlichkeitsverteilung eines gewissen Daten- 
5 satzes widerspiegeln, wenn bestintmte Beobachtungen gegeben 
sind. 

Vergleicht man die kunstlich erzeugen Daten mit Daten von be- 
kannter Herkunft f z. B. mit einer krebsspezif ischen Menge von 
10 Messdaten, konnen jene Gene bestimmt werden, welche, wenn sie 
auf einem gewissen Expressionsniveau fixiert werden, das Mo- 
dell so beeinf lussen, dass die beiden Microarray-Datensatze, 
der kunstliche und der bekannte, dieselben Eigenschaf ten auf- 
weisen. 

15 

Statistischer Vergleich von Datensatzen 

Urn die Qualitat des Einflusses der Evidenz E auf das Verhal- 
ten des Bayesschen Netzwerkes B zu schatzen, wird der erzeug- 
20 te Datensatz D B \ E mit einer Menge von Datensatzen D von be- 
kannten Zustanden S verglichen. 

Es wird angenoromen, dass D die Auswirkung verschiedener 
Krebsarten beschreibt. Ausf iihrungsgemafi kann nun das Verhal- 
25 ten von Evidenz E in Bezug auf eine bestirnmte Krebsart S be- 
schrieben werden. 

Unter Verwendung eines Abstandsmafies wird die Anderung a der 
Korrelation zwischen D B]B und D s infolge von E schatzbar: 
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wobei der Abstand zwischen den zwei Datensatzen mit Hilfe des 
Abstands zwischen D B , welches aus B ohne Evidenz entnommen 
wurde, und D s normiert wurde. 

5 Folglich ist ausfuhrungsgemafi der Einfluss einer beobachteten 
Evidenz messbar, z. B. der Expressionszustand eines bestimm- 
ten Gens auf ein fiir Krebs charakteristisches Verhalten des 
Modells . 

10 Zweitens ist die Wahrscheinlichkeit dafur berechenbar, dass B 
einen Datensatz D B]E erzeugt, welcher gleich D s bei gegebenem 
E ist. 

Zu diesem Zweck wird geschatzt, wie viele Stichproben d 1 von 
15 D B \b am nachsten bei D s liegen, indem der Abstand zwischen je- 
der Stichprobe und jedem Datensatz von D berechnet wird. 

Somit erhalt man die Aposteriori-Wahrscheinlichkeit P(S\E) 
des Auftretens der Krebsart S bei gegebener Evidenz E aus: 



20 




wobei N E3 die Anzahl der Stichproben von D B \ E ist, welche sta- 
tistisch dem Datensatz D s am nachsten kommen, und wobei N die 
25 Gesamtzahl der Stichproben von D B \ B ist. 

Wie bereits im Obigen konstatiert beschaftigt sich die empi- 
rische Forschung mit der Beziehung zwischen Ursache und Wir- 
kung, indem sie aus einer experimentellen Beobachtung Ruck- 
30 schliisse auf die zugrundeliegende Ursache zieht. 



Mit der Herangehensweise der Bayesschen inversen Modellierung 
gemafi dem Ausflihrungsbeispiel wird eine zugrundeliegende Ur- 
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sache geschatzt, indem zuerst eine Wirkung erzeugt wird, die 
aus einer bekannten Beobachtung hervorgeht. 

Nach diesem inversen Schritt wird diese Wirkung rait Wirkungen 
5 verglichen, welche wohldef iniert sind, deren Ursache jedoch 
unbekannt ist. 

Die potenzielle Ursache der am besten ubereinstimmenden Wir- 
kung ist dann durch die Beobachtung gegeben, welche die er- 
10 zeugte Wirkung hervorruft. 

Der MiL-Microarray-Datensatz von Yeoh et al. [4] 

Die Daten, die fur die Analyse gemafl dem Ausf uhrungsbeispiel 
15 verwendet werden, bestehen aus 327 Stichproben von verschie- 
denen Untertypen von padiatrischer akuter Lymphoblasten- 
Leukaniie (ALL) . 

Der Datensatz wurde von Yeoh und seinen Kollegen vorn St. Jude 
20 Children T s Research Hospital [4] zusamniengestellt . 

ALL ist eine heterogene Krankheit, die verschiedene Unterty- 
pen umfasst, einschliefilich sowohl Leukamie vom T-Zelltyp als 
auch Leukamie vom B-Zelltyp, die sich hinsichtlich ihrer Re- 
25 aktion auf eine medizinische Behandlung deutlich unterschei- 
den. 

Abgesehen von T-ALL, deren Ursache noch nicht klar bekannt 
ist,, kann jeder B-Zellen-Untertyp auf eine spezifische gene- 
30 tische Veranderung zuruckgefuhrt werden, z. B. auf genetische 
Translokationen t(9;22) [BCR-ABL] , t(l;19> [E2A-PBX1] , 
t(12;21) [TEL-AML1] , t(4;ll) [MLL] oder auf einen hyper- 
diploiden Karyotyp [> 50 Chromosomen] . 
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Daher ist es nicht verwunderlich, dass die Expressionsniuster 
der verschiedenen Untertypen recht deutlich voneinander un- 
terscheiden. 

5 

Ferner zeigen Microarray-Daten noch ein anderes deutliches 
Express ionsprofil, welches auf die Existenz eines weiteren 
ALL-Untertyps zusatzlich zu den 6 bekannten hindeutet. 

10 Es soli angemerkt werden, dass Yeoh et al. [4] an einem ro- 

busten Klassif ikator zur Klassif izierung der Untertypen unter 
Verwendung einer Stutzvektor-Mas chine mit einem Satz von 271 
diskriminierenden Genen arbeitet. 

15 Ergebnisse 

Gelernte Struktur 

Fur die Analyse gemafi dem Ausfuhrungsbeispiel wird der redu- 
20 zierte Datensatz von 271 Genen und 327 Stichproben von ver- 
schiedenen ALL-Untertypen [4] , wie oben beschrieben, verwen- 
det. 

Um den Lernvorgang eines multivariaten Modells durchzuf uhren, 
25 wurde der Datensatz in die Werte "unterexprimiert", "normal 
exprirniert" und "uberexprimiert" diskretisiert . 

Die gelernte Struktur zeigt "mafistabf reie" (scale-free) Kenn- 
grofien, ein Merkmal, welches fur biologische Netze, wie etwa 
30 fur metabolische Netze oder Signalisierungsnetze, typisch 
ist. 
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Solche Netze sind durch eine Potenzverteilung des Grades 
(Ranges) eines Knotens gekennzeichnet, welcher als die Anzahl 
der Verbindungen mit anderen Knoten definiert 1st. 

5 Diese Knoten besitzen einen starken Einfluss auf die Dynamik 
und Robustheit von "maftstabf reien" Netzen, und von vielen 
dieser in starkem Mafle verbundenen Gene in unserem Modell ist 
tatsachlich bekannt, dass sie eine Rolle bei der Onkogenese 
oder bei mit der Krebsentwicklung zusammenhangenden kriti- 
10 schen Prozessen spielen, z. B. DNA-Reparatur . 

Zuerst wird nun ein Datensatz von 300 Stichproben aus dem Mo- 
dell erzeugt, urn die Statistiken zu schatzen, die durch die 
Menge der bedingten Wahrscheinlichkeiten definiert sind. 

15 

Fig- 4 zeigt, dass die durch die Stichprobenentnahme gewonne- 
nen Daten ( Fig. 4b ) Untertyp-charakteristische Expressionsmus- 
ter zeigen, so wie dies auch im urspriinglichen Datensatz 
( Fig. 4a ) der Fall ist. 

20 

Die Muster einiger Untertypen, wie etwa E2A-PBX1 Oder T-ALL, 
werden sehr gut reproduziert, wahrend einige andere weniger 
gut generiert werden, z. B. das Muster des Untertyps MLL, o- 
der vollig verfehlt werden, wie etwa BCR-ABL. 

25 



Modellierung von Leukamie -Untertypen durch Intervention 

30 

Das gelernte Bayessche Netzwerk ist die Ausgangsbasis bei dem 
Ausfizhrungsbeispiel fur die Herangehensweise, inittels inver- 
ser Modellierung diejenigen Gene zu finden, welche, wenn sie 
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auf einem bestiramten Expressionsniveau fixiert werden, das 
Modell so beeinflussen, dass der generierte kunstliche Micro- 
array-Datensatz spezifische Merkmale aufweist. 

5 Wie im Obigen beschrieben wurde, wird die Wahrscheinlichkeit 
P(C\E) der Erzeugung eines bestimmten Krebs-Untertyps C ge- 
schatzt, wenn eine gewisse Beobachtung E gegeben ist, in die- 
sem Falle der Expressions zustand eines bestimmten Gens 
P(C| Gen^Zustand) . 

10 

Im Gegensatz zu Yeoh wird nicht nur das Vorliegen eines be- 
stimmten Krebs-Untertyps vorhergesagt, sondern genetische Me- 
chanismen, die zu seiner Erzeugung fiihren. 

15 Eine hohe Wahrscheinlichkeit sagt voraus, dass die fixierten 
Gene eine potenzielle Ursache fur das Untertyp-spezif ische 
Expressionsverhalten der fraglichen Gene ist, welches wieder- 
um die zugrundeliegende Ursache fur ein spezifisches kanzero- 
ses Erscheinungsbild sein kann. 

20 

Fur den Vergleich werden 7 Referenz-Datensatze verwendet, wo 
bei jeder von ihnen in Verbindung mit einem spezifischen ALL 
Untertyp erhalten wurde. 

25 Fig, 4a zeigt f dass der ursprungliche Microarray-Datensatz 
deutlich in 7 Cluster (Punkthauf en) mit unterschiedlichen 
Stichprobenumf angen unterteilt ist. 

Jeder dieser Cluster reprasentiert das Expressionsmuster von 
30 271 Genen, wenn ein bestimmter Leukamie-Untertyp gegeben ist 
und wurde verwendet , um den Einfluss einer Evidenz auf das 
Auftreten dieser verschiedenen ALL-Untertypen zu messen. 
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In einem ersten Schritt wird jedes Gen bei irgendeinem seiner 
Expressionswerte fixiert, wobei alle diese Bedingungen ver- 
wendeten werden, urn einen Datensatz von 300 Stichproben zu 
generieren ( Fig, 4b ) . 

5 

Anschlieflend werden alle diese Daten mit den 7 Referenz- 
Datensatzen, wie vormals erlautert, verglichen. 

In Fig. 5 ist die Wahrscheinlichkeit jedes Untertyps unter der 
10 Bedingung, dass ein Gen uberexprimiert ist, fur alle 271 Gene 
graphisch dargestellt. 

Fiq.5 zeigt, dass eine kleine Anzahl von Genen existiert, 
welche einen bestinimten ALL-Untertyp mit einer hohen Wahr- 
15 scheinlichkeit hervorrufen, wenn sie stark aktiv sind. 

Um diese Ergebnisse zu beweisen, wird die molekulare Funktion 
gewisser Gene und ihre Rolle in biologischen Prozessen, ins- 
besondere im Hinblick auf die Pathogenese, nachfolgend einge- 
20 hender betrachtet. 

Biologische Einblicke 

Dazu werden die Gene naher betrachtet, die mit einer hohen 
25 Wahrscheinlichkeit einen bestimmten Untertyp verursachen, so- 
wie signifikante Strukturmuster in dem gelernten Netzwerk, 
d. h. dominante Gene und ihre Umgebung. 

Das gelernte Bayessche Netzwerk (Modell) resultiert aus einem 
30 Microarray-Datensatz von unterschiedlichen Leukamie- 

Untertypen und spiegelt transskriptionale Beziehungen zwi- 
schen Genen wider, die in diesen bosartigen Krebszellen auf- 
treten . 
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Sornit sind Gene, die einen bestimmten Untertyp hervorruf en, 
entweder potenzielle Onkogene oder werden durch solche Gene 
reguliert . 

5 

Das erste Gen, welches eingehender analysiert wird, 1st das 
Gen PBX1. 

Wenn es uberexprimiert ist, erzeugt das gelernte Bayessche 
10 Netzwerk mit einer Wahrscheinlichkeit von 0,96 einen Daten- 

satz, welcher fur den Untertyp E2A-PBX1 der ALL vom B-Zelltyp 
charakteristisch 1st (siehe Fig, 5 ) . 

Dies legt die Vermutung nahe, dass ein kausaler Zusammenhang 
15 zwischen der "Oberexprimiertheit" dieses Gens und dem Auftre- 
ten des ALL-Untertyps E2A-PBX1 vorhanden ist. 

Und tatsachlich ist PBX1 als ein Protoonkogen bekannt, wel- 
ches die Verwandlung von normalen Blutzellen in bosartige 
20 ALL-Krebszellen verursacht. 

Infolge der Chromosomen-Translokation t(l;19) verschmilzt 
PBX1 mit dem Gen E2A und verwandelt sich in ein potentes On- 
kogen, welches den Leukamie-Untertyp E2A-PBX1 verursacht • 

25 

Da ferner die Graphstruktur des Modells ( Fig. 6 ) auf eine kau- 
sale Weise interpretiert werden kann, liefert sie Inf ormatio- 
nen iiber die Wechselwirkung zwischen potenziellen Onkogenen 
und anderen Genen, was wiederura als eine onkogene Regelung 
30 interpretiert werden kann. 

Wenn man die Struktur des Netzwerkes ( Fig. 6 ) betrachtet, so 
stellt PBX1 ein dominantes Gen dar, indem es viele andere Ge- 
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ne beeinflusst, jedoch nur von einem oder wenigen anderen Ge- 
nen reguliert wird. 

Zusatzlich identif iziert das Modell aufgrund der bedingten 
5 Wahrscheinlichkeitsverteilung PBX1 als einen Transkription- 
saktivator . 

Dies kann ebenfalls durch bekannte biologische Tatsachen er- 
klart werden, da PBX1 Gene aktiviert, die normalerweise ent- 
10 weder nicht exprimiert oder auf einem niedrigen Niveau expri- 
miert sind. 

Patienten mit einer Hyperdiploidie von > 50 Chromosomen haben 
Klone von 51-68 Chromosomen. Obwohl hoch hyperdiploide Klone 
15 selten identisch sind, neigen sie dazu, ein Muster des Chro- 
mosomenzuwachses mit zusatzlichen Kopien der Chromosome 4, 6, 
10, 14 r 18 und 21 aufzuweisen. 

Trisomie und Polysomie 21 sind nicht zufallige Anornalien, 
20 welche bei ALL haufig zu beobachten sind. Ihr Auftreten, auch 
wenn es nicht spezifisch ist, sowie das gehaufte Auftreten 
von akuter Leukamie bei Subjekten mit konstitutioneller Tri- 
somie 21 legen die Vermutung nahe, dass das Chromosom 21 eine 
besondere Rolle bei der Leukamogenese spielt. 

25 

Eine andere Krankheit, das Down-Syndrom, wird durch Trisomie 
21 verursacht und zeigt ein verstarktes Auftreten von Leuka- 
mie wie etwa ALL. 

30 Demzufolge ermoglich in diesem Fall die beschriebene Vorge- 
hensweise gemafi dem Ausf uhrungsbeispiel Gene zu identifizie- 
ren, die in hohem Mafle auf den hyper diploiden ALL-Untertyp 
hinweisen, von denen jedoch auch bekannt ist, dass sie eine 
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wesentliche Rolle bei der Entstehung des Down-Syndrorns spie- 
len. 

Das Gen S0D1 befindet sich am Chromosom 21 und produziert ein 
5 Enzym, welches superoxidf reie Radikale in Wasserstof fperoxid 
umwandelt. Die verstarkte Expression bei Trisomie 21 , welche 
auch bei den Microarray-Stichproben von Patienten mit hyper- 
diploidem Karyotyp zu beobachten ist, kann die Hirnschadigung 
auslosen, die beim Down-Syndrom zu erkennen ist. 

10 

Die Haufigkeit des Auftretens des hyper diploi den ALL- 
Untertyps erhoht sich auch in dem Falle, wenn das Gen PSMD10 
uberexprimiert ist. 

15 PSMD10 ist eine regulierende Unter-Einheit des Proteasoms 

26S, von dem nachgewiesen wurde, dass es als ein naturlicher 
Mechanisrnus fur den Abbau von Proteinen durch Regulierung des 
Proteinumsatzes in eukaryotischen Zellen wirkt. 

20 Dies ist bei Krebserkrankungen des Menschen von Bedeutung, da 
der Zellzyklus, das Tumorwachstum und das Oberleben durch ei- 
ne grofie Vielfalt an intrazellularen Proteinen bestimmt wer- 
den, welche durch den Ubiquitin-abhangigen Proteasom-Abbauweg 
geregelt werden, der von PSMD10 beeinflusst wird. 

25 

In neueren wis sens chaftlichen Arbeiten auf diesem Gebiet wur- 
de nachgewiesen, dass dieser Abbauweg oft Gegenstand einer 
mit Krebs zusammenhangenden Deregulierung ist und solchen 
Prozessen unterliegen kann, wie onkogener Transformation, Tu- 
30 morprogression, Umgehung der Immunuberwachung und Arzneimit- 
telresistenz . 

Zusammenfassung des Ausfiihrungsbeispiels 
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Das beschriebene Ausf uhrungsbeispiel stellt eine neue Vorge- 
hensweise vor, mit der es moglich ist, Gene, die eine poten- 
zielle Ursache fair eine Tumorgenese sind, durch Analysieren 
5 der Zusammenhange zwischen Microarray-Daten von Leukamie- 

Untertypen und einem Datensatz, der Ergebnis einer Stichpro- 
benentnahme aus einem gelernten Bayesschen Netzwerk ist, zu 
identif izieren . 

10 Basis dieser Vorgehensweise ist die Modellierung eines regu- 
lierenden genetischen Netzwerkes durch ein Bayessches Netz- 
werk, wobei Gene bzw. ihre entsprechenden Proteine durch Kno- 
ten des Bayesschen Netzwerks symbolisiert werden. 

15 Regelungsmechanismen werden durch Kanten zwischen zwei Knoten 
beschrieben, welche auf eine kausale Art und Weise interpre- 
tiert werden konnen. 

Die Qualitat der Regulierung ist in der bedingten Wahrschein- 
20 lichkeitsverteilung des betroffenen Gens bei gegebenen Regu- 
latoren desselben codiert. 

Das Verstandnis der regulierenden genetischen Netze stellt 
einen wichtigen Schritt auf dem Weg zur Charakterisierung der 
25 genetischen Mechanismen dar f welche komplexen Krankheiten 
zugrunde liegen. 

In der Krebsf orschung, wo die Identif izierung von Geschwtilste 
und Tumore unterdriickenden Genen einen Schlusselrolle spielt, 
30 ist die Kenntnis neuer potenzieller Onkogene und ihrer Wech- 
selwirkung mit anderen Molektilen ein wichtiger Beitrag zur 
Aufdeckung der Grundprinzipien, welche die Umwandlung norma- 
ler Zellen in bosartige Krebszellen bestimraen. 
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Mit der beschriebene Vorgehensweise gemafi dem Ausfiihrungsbei- 
spiel, insbesondere mit der Bayesschen inversen Modellierung, 
ist es moglich, Gene mit einer solchen onkogenen Charakteris- 
5 tik einfach durch eine statistische Analyse von Gen- 

Expressionsmustern, die mit Hilfe von DNA-Microarrays gemes- 
sen wurden, zu entdecken. 

Das zugrundliegende wahrscheinlichkeitstheoretische Modell, 
10 das verwendet wurde, ist ein Bayessches Netzwerk, welches die 
multivariate Wahrscheinlichkeitsverteilung einer Menge von 
Variablen mittels einer Menge von bedingten Wahrscheinlich- 
keitsverteilungen codiert. 

15 Die statistischen Abhangigkeiten werden in einer Graphs truk- 
tur codiert. Beim Lernverf ahren werden Bayessche Statistiken 
verwendet , vim die Netzstruktur und die entsprechenden Modell- 
parameter zu ermitteln, welche die Wahrscheinlichkeitsvertei- 
lung enthalten in den Daten am besten beschreiben. 



20 
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Patentanspruche 



1. Verfahren zur Analyse eines regulatorischen genetischen 
Netzwerks einer Zelle unter Verwendung eines kausalen Netzes, 
5 welches kausale Netz das regulatorische genetische Netzwerk 
der Zelle beschrelbt derart, dass Knoten des kausalen Netzes 
Gene des regulatorischen genetischen Netzwerks reprasentieren 
und Kanten des kausalen Netzes regulatorische Wechselwirkun- 
gen zwischen den Genen des regulatorischen genetischen Netz- 
10 werks reprasentieren, 

a) bei dem fur ein ausgewahltes Gen des regulatorischen ge- 
netischen Netzwerks eine Gen-Expressionsrate vorgegeben 
wird, 

b) bei dem unter Verwendung des kausalen Netzes fur die vor- 
15 gegebene Gen-Expressionsrate ein resultierendes Gen- 

Expressionsmuster fur das regulatorische genetische Netz- 
werk generiert wlrd; 

c) bei dem das generierte resultierende Gen- 
Expressionsmuster rait einem vorgegebenen Gen- 
Expressionsmuster des regulatorischen genetischen Netz- 
werks verglichen wird. 



20 



2. Verfahren nach Anspruch 1, 

bei dem das ausgewahlte Gen unter Verwendung des kausalen 
25 Netzes mittels einer Abhangigkeitsanalyse ausgewahlt wird. 

3. Verfahren nach einem der vorangehenden Anspriiche, 

bei dem die Gen-Expressionsrate des ausgewahlten Genes derart 
vorgegeben wird, dass die vorgegebene Gen-Expressrate des 
30 ausgewahlten Genes eine Annahme eines Gendefekts widerspie- 
gelt . 

4. Verfahren nach einem der vorangehenden Anspriiche, 
bei dem das kausales Netz ein Bayesianisches Netz 1st. 

35 

5. Verfahren nach einem der vorangehenden Anspruche, 
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bei dem das kausale Netz von einem Typ DAG (directed acylic 
graph) ist. 

6. Verfahren nach einem der vorangehenden Anspruche, 

5 bei dem das generierte resultierende und/oder das vorgegebene 
Gen-Expressionsmuster diskrete Genzustande reprasentiert . 

7. Verfahren nach einem der vorangehenden Anspruche, 

-bei dem die reprasentierten diskreten Genzustande ein uber-, 
10 ein normal-, ein unterexprimierten Genzustand sind 

8. Verfahren nach einem der vorangehenden Anspruche , 

bei dem der Vergleich des generierten resultierenden Gen- 
Expressionsmuster mit dem vorgegebenen Gen-Expressionsmuster 
15 unter Verwendung eines statischen Verfahrens und/oder einer 
statistischen Kennzahl, insbesondere eines Abstandsmafles, 
durchgefuhrt wird. 

9. Verfahren nach einem der vorangehenden Anspriiche, 
20 bei dem das kausales Netz unter Verwendung von Gen- 

Expressionsmustern trainiert wird, wobei die Knoten und die 
Kanten des kausalen Netzes angepasst werden. 

10. Verfahren nach einem der vorangehenden Anspruche, 

25 bei dem die Gen-Expressionsmuster, insbesondere das vorgege- 
bene Gen-Expressionsmuster und/oder die Gen-Expressionsmuster 
fur das Training, bestimmt werden unter Verwendung einer DNA- 
Micro-Array-Technik . 

30 11, Verfahren nach einem der vorangehenden Anspruche, 

bei dem das vorgegebene Gen-Expressionsmuster und/oder die 
Gen-Expressionsmuster fur das Training Gen-Expressionsmuster 
eines genetischen regulatorischen Netzwerks einer kranken 
Zelle ist. 

35 



12. Verfahren nach einem der vorangehenden Anspruche, 
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bei dem die kranke Zelle eine Onko-Zelle, insbesondere eine 
Onko-Zelle mit ALL (Akute lymphoblastische Leukamie) 1st. 

13. Verfahren nach einem der vorangehenden Anspruche, 

5 bei dem die kranke Zelle ein Onko-Gen, insbesondere ein ALL- 
Onko-Gen, auf weist . 

14. Verfahren nach eineni der vorangehenden Anspruche, 

bei dem fur eine Vielzahl von ausgewahlten Genen des regula- 
10 torischen genetischen Netzwerks jeweils eine Gen- 
Express ions rate vorgegeben wird, eine Vielzahl von resultie- 
renden Gen-Expressionsmustern generiert werden und eine Viel- 
zahl von Vergleichen durchgefiihrt werden. 

15 15. Verfahren nach einem der vorangehenden Anspruche, 

bei dem die Generierung der Vielzahl von resultierenden Gen- 
Expressionsmustern iterativ durchgefiihrt wird. 

16. Verfahren nach einem der vorangehenden Anspruche, 
20 eingesetzt zur Identif izierung eines dominanten Gens. 

17. Verfahren nach einem der vorangehenden Anspruche , 
eingesetzt zur Identif izierung eines degenerier- 
ten/mutierten/kranken/onkogenen/ tumor-suppressor Gens . 

25 

18. Verfahren nach einem der vorangehenden Anspruche, 
eingesetzt zur Identif izierung einer Tumorzelle . 

19. Verfahren nach einem der vorangehenden Anspruche, 
30 eingesetzt zur Krebserkennung. 

20. Verfahren nach einem der vorangehenden Anspruche, 
eingesetzt zu einer Ursachenanalyse fur ein abnormales Gen- 
Expressionsmuster/Gen-Expressrate. 

35 

21. Verfahren nach einem der vorangehenden Anspruche, 
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eingesetzt zu einer Simulation und/oder Analyse einer Wirk- 
weise eines Medikaments. 

22. Computerprogramm mit Programmcode-Mitteln, um alle 

5 Schritte gemali Anspruch 1 durchzufuhren, wenn das Programm 
auf einem Computer ausgefiihrt wird. 

23. Computerprogramm mit Programmcode-Mitteln gemafi dem vo- 
rangehenden Anspruch , welche Programmcode-Mitteln auf einem 

10 computerlesbaren Datentrager gespeichert sind. 

24. Computerprogramm-Produkt mit auf einem maschinenlesbaren 
Trager gespeicherten Programmcode-Mitteln, um alle Schritte 
gemaii Anspruch 1 durchzuf iihren, wenn das Programm auf einem 

15 Computer ausgefuhrt wird. 
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ausgewahlter Gen 
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Bestimmung resultierender 
Gen-Expressionsmuster unter Verwendung 
des kausalen Netzes 
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Vergleich resultierender 
Gen-Expressionsmuster <-> vorgegebener 
Gen-Expressionsmuster 
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200 



Algorithmus der Stichprobenentnahme (B,N) 
Eingang: 

B - Bayessches Netzwerk; 
N - Anzahl der unabhangigen Stichproben. 
Ausgang: 

D B - Datensatz von N unabhangigen Stichproben. 

Ordne die Variablen-Menge X gemaB der Bedingung 21 0 
dass Parents (Elternknoten) Pa, vor den X: angeordnet sind. 
Fur s=1, N — 230 
Furi=1 n --220 

Sei Xj der Knoten mit der hochsten Ordnungsnummer in dieser 
Stichprobe, der nicht instantiiert ist. 

5. Falls Xj ein Wurzelknoten ist, wahle den Zustand mit 
Wahrscheinlichkeit P(Zustand), 

6. andernfalls wahle den Zustand mit Wahrscheinlichkeit 
P(Zustand | entnommene Zustande von Pap. 

7. lnstantiiereXj=Zustand. 



1. 

2. 
3. 
4. 
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FIG 3 



Algorithmus der interventionellen Stichprobenentnahme (B.E.N) 
Eingang: 

B - Bayessches Netzwerk; qi n 

E - Menge von Beobachtungen; " 
N - Anzahl der unabhangigen Stichproben. 
Ausgang: ^330 

D B|E" Datensat z von N unabhangigen Stichproben bei gegebenem E. 

XE - Menge beobachteter Variabler; — 320 
Xq={X\XE} - Menge von Abfragevariablen. 

1. Ordne Xq gemaB der Bedingung, dass Parents (Elternknoten) Pa: 
vor den Xj angeordnet sind. ' ' 

2. Furs=1 N 

3. Furi=1, .... n 

4. Sei Xj der Knoten mit der hochsten Ordnungsnummer in dieser 
Stichprobe, der nicht instantiiert ist. 

5. Falls Xj ein Wurzelknoten ist, wahle den Zustand mit 
Wahrscheinlichkeit P(Zustand\E), 

6. andernfalls wahle den Zustand mit Wahrscheinlichkeit 
P(Zustand lentnommene Zustande von Paj.E). 

7. lnstantiiereX:=Zustand. 
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